生成式A.I.(AIGC)從0開始 - LLMs大語言模型介紹 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 3

AI & Data

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案系列第 3 篇

生成式A.I.(AIGC)從0開始 - LLMs大語言模型介紹

15th鐵人賽 chatgpt llm 大語言模型 aigc

shrine90459

2023-09-18 22:21:10

1730 瀏覽

分享至

今天來介紹LLM → Large Language Models 大型語言模型，
我們的主題AIGC也離不開大語言模型
相信大家一定都有使用過ChatGPT，沒錯ChatGPT就是一個GPT-3.5大語言聊天模型
擁有超過1750億參數，支援最多16K的輸入這邊聽不懂沒關係我們會慢慢解釋

什麼是語言模型?

Language models語言模型就像一個聰明的語言理解機器，它被訓練成了解和使用人類的語言。想像一下，你給它一個句子的開頭，它可以幫你預測出接下來可能出現的詞語或完成整個句子。這是因為它通過閱讀大量的文章、書籍和網頁，學會了語法、詞彙和常見的語言模式。

比如說 : 今天真開心，外面的天氣很 _ 。

這裡一定是好、棒，不會出現濫、壞
這是因為我們給他的訓練資料讓語言模型預測這些詞的機率比較高
如果你拿品質較差的訓練集那他給你的回覆可能也會不太好

以ChatGPT為例，大家一定聽過英文的回覆品質比較好，就是因為訓練資料大部分都是英文，小部分中文

什麼是大語言模型?

知道了語言模型後，什麼是「大」語言模型呢?

大語言模型是語言模型的強化版，它更加強大和聰明。那其實沒有個明確的定義，主要就是訓練的參數(語言知識)，可能幾十億甚至到上千億

像GPT-3就有1750億的參數
而我們熟悉的ChatGPT則是使用GPT-3.5還有GPT-4模型
雖然沒公布但這兩個參數肯定更高

大語言模型能很好的處理文本生成像是文章、故事、詩歌、新聞報導、程式碼等
甚至是翻譯、文本分類、情感分析、問答系統

參數越多越好嗎?

或許是，但應該很快就出現上限了，人類資料就那麼多
而且也可能會出現過擬合（overfitting）的情況
還有訓練費用也是問題，這些千億級的模型訓練費用動輒都幾百萬美金(上萬張A100)
目前也越來越多在研究用高品質的少量訓練資料來訓練很好的模型

而模型的訓練過程包括兩個主要階段：預訓練和微調，下面會一一介紹

訓練階段1 → 預訓練（Pre-training）

在這個階段，模型首先在大量的未標記文本數據上進行訓練，通常使用無監督或自監督的學習方法。模型通過閱讀這些文本數據，學習語言的基本知識、詞彙、語法結構和語言關聯性。這一階段的目標是使模型獲得一種通用的語言理解能力，而不是針對特定任務進行訓練。

訓練階段2 → 微調(fine tuning)是什麼?

當我們有了一個模型後(又稱預訓練模型)，我們想要讓他執行特定任務(聊天、特定領域問答)，微調的目標是使模型適應特定任務

以ChatGPT為例，他就是一個微調過的聊天模型
相信有用過的都知道，我們可以用聊天的方式跟他溝通，他也會用聊天的方式回覆我們
那是怎麼做到的呢?
我們可以準備很多的聊天訓練集來訓練

這邊就可以延伸很多應用了，像是金融模型、醫療模型、法律模型
可以說各行各業都能有自己的微調模型來幫助你

最後如果你也對這主題有興趣歡迎來我們的discord跟大家一起討論~
https://discord.gg/sFDuct738y

AIGC、Gen AI 生成式介紹

生成式A.I.(AIGC)從0開始 - Tokens 介紹

系列文

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案共 14 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22203 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

2023 AI大型語言模型之旅 - 從0開始學習建構AI專案系列 第 3 篇